메뉴

#컨텍스트 윈도우

HN
Hacker News 4일 전
IMP 8

언어 모델도 수면이 필요하다

최근 트랜스포머 기반 대형 언어 모델(LLM)은 문맥 길이가 길어질수록 어텐션 메커니즘의 연산 효율이 급격히 떨어지는 한계를 보입니다. 이를 해결하기 위해 본 논문은 인간의 '수면'과 유사한 통합 메커니즘을 제안하여, 모델이 최근 문맥을 영구적인 빠른 가중치(fast weights)로 변환하고 기존의 키-값 캐시를 초기화하는 방식을 도입했습니다. 기존 모델들이 실패한 복잡한 수학적 추론 작업에서도 이 방법론이 뛰어난 성능 향상을 보여주며, 깊은 추론이 필요한 문제일수록 효과가 극대화된다는 점이 핵심적인 성과입니다.

대형 언어 모델 트랜스포머 컨텍스트 윈도우
SG
r/singularity 24일 전
IMP 8

앤스로픽 차기 모델 3대 핵심 개발 방향

앤스로픽의 제품 총괄 디앤 펜(Dianne Penn)은 차기 클로드(Claude) 모델을 위해 복잡한 엔지니어링을 수행할 '고도화된 판단력과 코드 이해도', 방대한 작업을 수월하게 처리할 '사실상 무한한 컨텍스트 윈도우', 그리고 단일 에이전트의 한계를 넘어 거대한 목표를 달성하는 '멀티 에이전트 협업'이라는 3대 핵심 영역을 발표했습니다. 이는 AI가 단순한 보조 도구를 넘어 완전한 자율성을 갖춘 복잡한 소프트웨어 개발 및 대규모 작업 수행의 파트너로 진화하고 있음을 시사합니다.

Anthropic Claude AI 에이전트
LL
r/LocalLLaMA 58일 전
IMP 5

Gemma 4 모델도 훌륭하지만, Qwen의 완성도에 감탄하게 되는 이유

Reddit 사용자가 새로 출시된 Gemma 4 모델을 테스트해 보고 훌륭한 성능을 인정했습니다. 하지만 동시에 Qwen 팀이 이룬 높은 수준의 품질과 일반 가용 하드웨어에서도 구동 가능한 넓은 컨텍스트 윈도우(Context Window)의 가치를 더욱 깊이 체감하게 되었다고 평가했습니다. 이는 오픈소스 LLM 시장에서 소비자 하드웨어 최적화와 성능의 균형이 얼마나 중요한지를 보여주는 실무적 지표입니다.

Gemma 4 Qwen 오픈소스 LLM